NVIDIA Triton Inference Server
NVIDIA 推出的开源推理服务框架;支持 NVIDIA TensorRT-LLM、PyTorch、TensorFlow、ONNX 等多种模型格式;企业级 GPU 推理服务主导。
定义
Triton Inference Server 是一个开源的推理服务化框架,支持多种深度学习框架的模型部署,提供企业级推理服务能力(动态批处理、模型集成、多模型并发、HTTP/gRPC API、监控)。
核心能力
- 多框架支持:TensorRT / PyTorch / TensorFlow / ONNX / OpenVINO 等
- 动态批处理(Dynamic Batching):自动拼批以提升 GPU 利用率
- 模型集成(Model Ensemble):多个模型组合成单一推理 pipeline
- 多模型并发:多个模型在同一 GPU 共享算力
- HTTP / gRPC API
- 指标监控 + 可观测性
- Python / C++ / Java / Go 客户端 SDK
主要玩家
- NVIDIA(开发与维护)
- 主要部署场景:金融、医疗、零售、汽车智能化等需要多模型协同推理的企业场景
在 AI 产业链中的角色
- 企业级 GPU 推理服务主导:在需要多模型协同推理的复杂场景中优势明显
- 与 NVIDIA TensorRT-LLM 配合:TensorRT-LLM 负责优化,Triton 负责服务化
- MaaS 基础设施:是众多云厂商和 AI 公司构建模型服务平台的底层框架
演进历史
- 2018 首发(彼时名为 TensorRT Inference Server)
- 2020 改名 Triton Inference Server,开源
- 2024 与 TensorRT-LLM、NIM (NVIDIA Inference Microservices) 深度集成
- 2025 适配 Blackwell GPU 架构
相关概念
∈ belongs_to::4-04-模型部署与优化